Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente
نویسنده
چکیده
These T 3 : Automatisierte Anfragen an Suchmaschinen bieten einen geeigne-ten Zugang zu den einschlägigen Web-Dokumenten eines Fachgebiets. These T 4 : Eine feingliedrige Fehlerklassifikation erlaubt die Lokalisierung der beiden Hauptfehlerquellen der webgestützten Nachkorrektur: • falsche Freunde, d. h. Fehler, die unentdeckt bleiben, da sie lexikalisch sind • unglückliche Korrekturen hin zu Orthographie-oder Flexions-Varianten 5 6 These T 5 : Falsche Freunde werden durch eine Kombination mehrerer OCR-Engines deutlich vermindert. These T 6 : Mit einfachen Heuristiken wird ein unglücklicher Variantenaus-tausch der Nachkorrekturkomponente vermieden. These T 7 : Mit einer Vereinheitlichung zu Scores lassen sich diverse OCR-Nachkorrekturhilfen wie etwa Wort-Abstandsmaße, Frequenz-und Kontextin-formationen kombinieren und zur Kandidaten-sowie Grenzbestimmung einset-zen. These T 8 : OCR-Nachkorrektur ist ein multidimensionales Parameteroptimie-rungsproblem, wie z. B. Auswahl der Scores, deren Kombination und Gewich-tung, Grenzbestimmung oder Lexikonauswahl. Eine graphische Oberfläche eig-net sich für eine Untersuchung der Parameter und deren Adjustierung auf Trai-ningsdaten. These T 9 : Die Software zur Parameteroptimierung der Nachkorrektur der Resultate einer OCR-Engine kann für die Kombination mehrerer OCR-Engines wiederverwendet werden, indem die Einzelresultate der Engines wieder zu Scores vereinheitlicht werden. These T 10 : Eine Wort-zu-Wort-Alignierung, wie sie für die Groundtruth-Er-stellung und die Kombination von OCR-Engines notwendig ist, kann durch eine Verallgemeinerung des Levenshtein-Abstands auf Wortebene effizient realisiert werden.
منابع مشابه
Vorwort: Enterprise Document Management und Information Lifecycle Management
Zu den Herausforderungen der Fachbereiche und IT-Abteilungen moderner Organisationen zählen sowohl das effektive und effiziente Management schwach strukturierter ("weicher") Informationen, insbesondere in Form von Dokumenten, als auch die Auflösung von Medienbrüchen in Geschäftsund Unterstützungsprozessen; beides stellt eine wichtige Voraussetzung für die weitere Steigerung der organisationalen...
متن کاملEin hybrides Zeitstempelsystem
Eines der größten Probleme, mit denen digitale Beweisstücke und Dokumente konfrontiert werden, ist das Feststellen der exakten Herstellungszeit. Viele Sicherheitsdienste bauen auf der Fähigkeit auf, die Zeit verschiedener Operationen feststellen zu können. Einfache, verknüpfte und verteilte Schemen sind die heute verbreitetsten Methoden digitale Zeitstempel herzustellen. Sind diese aber dazu ge...
متن کاملImplementierung und Evaluierung des MIMOR-Modells: Mehrfachindexierung zur dynamischen Methoden-Objekt-Relationierung im Information Retrieval
Das MIMOR-Modell (Mehrfachindexierung zur dynamischen MethodenObjekt-Relationierung im Information Retrieval) ist ein Ansatz zur Erhöhung der Adaptivität auf einer Meta-Ebene. MIMOR arbeitet mit Mehrfachindexierung, also der Repräsentation der Objekte (Texte, Bilder usw.) aus mehreren Perspektiven. Große Evaluierungs-Studien haben u.a. gezeigt, dass die besten IR-Verfahren sich in der Qualität ...
متن کاملTextauszeichnung im Original und in der Übersetzung: Schemasprachen und mehr
Der vorliegende Artikel behandelt Forschungsarbeiten, die in der Forschergruppe TEXTTECHNOLOGISCHE INFORMATIONSMODELLIERUNG, im Rahmen des Projekts SEKIMO (Sekundäre Informationsstrukturierung und vergleichende Diskursanalyse) entstehen. Im Projekt Sekimo werden u. a. Schemasprachen für einen korpusbasierten Vergleich sprachlicher Funktionen (z. B. Koreferenz) und ihren Realisierungsformen in t...
متن کاملHypertextualisierung mit Topic Maps - ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten
Der Kurzbeitrag berichtet über ein Projekt ”Hypertextualisierung auf textgrammatischer Grundlage“ (HyTex), in dem erforscht wird, wie sich linear organisierte Dokumente mit semiautomatischen Methoden auf der Grundlage von textgrammatischem Markup und der linguistisch motivierten Modellierung terminologischen Wissens in delinearisierte Hyperdokumente überführen lassen. Ziel ist es, eine Sammlung...
متن کامل